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Resume - Nous presentons dans cette communication une approche non parametrique pour regrouper automatiquement des series temporelles 
suivant une marche aleatoire. Nous introduisons d’abord une etape de pre-traitement qui consiste a transformer les realisations independantes et 
identiquement distribuees des increments du processus de Markov en un vecteur representant sans perte toute I’information disponible de ces 
series temporelles, et la factorisant en une composante dependance et une composante distribution. Nous definissons ensuite une distance entre 
ces representations tenant compte des deux types d’information et permettant d’en controler I’importance pour le partitionnement automatique a 
I’aide d’un seul parametre. Ce parametre de melange pent etre appris ou manipule par un expert a des fins exploratoires comme illustre par 1’etude 
des series temporelles financieres. Des experiences, implementations et resultats sont disponibles sur http : / /www. datagrapple . com. 

Abstract - We present in this paper a novel non-parametric approach useful for clustering Markov processes. We introduce a pre-processing 
step consisting in mapping multivariate independent and identically distributed samples from random variables to a generic non-parametric 
representation which factorizes dependency and marginal distribution apart without losing any. An associated metric is defined where the balance 
between random variables dependency and distribution information is controlled by a single parameter. This mixing parameter can be learned 
or played with by a practitioner, such use is illustrated on the case of clustering financial time series. Experiments, implementation and results 
obtained on public financial time series are online on a web portal http : / / www. datagr apple . com. 


1 Introduction 


Les marches aleatoires peuvent etre utilisees pour partition¬ 
ner les donnees, elles constituent par exemple un point de vue 
de la classification spectrale [7]. Dans cette communication, 
nous nous interesserons au probleme inverse : partitionner des 
marches aleatoires. Ces processus stochastiques sont un impor¬ 
tant outil de modelisation des series temporelles financieres, 
savoir les regrouper dans des groupes homogenes statistique- 
ment pent permettre d’etablir de meilleurs indicateurs de risque 
que la simple « valeur a risque ». Pour effectuer ce partitionne¬ 
ment automatique des marches aleatoires, nous devons dispo¬ 
ser d’une representation de celles-ci ainsi que d’une distance 
entre les representations. En general, representation et distance 
idoines ne sont pas connues et des heuristiques sont utilisees 
comme les deux decrites en legende de la Figure 1. Dans le 
cas restreint des series temporelles s’ecrivant comme la somme 
de variables aleatoires Xi independantes et identique¬ 
ment distribuees (i.i.d.), nous proposons en Section 2 distance 
et representation adaptees et mathematiquement fondees. Celles- 
ci travaillent sur la serie temporelle des increments Xi portant 
toute r information des marches aleatoires considerees. Finale- 


ment, en Section 3 nous presentons brievement une application 
aux series temporelles financieres. Pour une etude plus appro- 
fondie et davantage d’experiences, le lecteur pourra se referer 
a http : / /www. datagr apple . com, portail se consacrant 
au partitionnement automatique des series temporelles, notam- 
ment issues du marche des couvertures de defaillance. 



Figure 1 - Pour regrouper ces exemples de marches alea¬ 
toires, deux criteres sont utilises : pour cedes de gauche, la 
forme du signal; cedes de droite sont similaires a transforma¬ 
tions homothetiques pres. 




2 Une representation non parametrique 
des marches aleatoires 

Soil (^7, P) un espace de probabilite. Soil V I’espace des 
variables aleatoires reelles continues definies sur P). 

Soient U 1’espace des variables aleatoires suivant une loi uni¬ 
forme sur [0,1] et 0 respace des fonctions de repartitions abso- 
lument continues. Nous definissons maintenant une represen¬ 
tation non parametrique des vecteurs aleatoires qui capture et 
separe sans perte la partie comportement joint des variables de 
leur distribution propre. Soit T 1’application qui associe a un 
vecteur aleatoire X = (Xi,..., X^v) sa representation non pa¬ 
rametrique, element de x , definit comme suit: 

r:V^ ^ (1) 

X ^ {Gx{X),Gx) 

ou Gx = {Gxi 5 • • • 5 Gxjv), Gxi etant la fonction de reparti¬ 
tion de Xi. 

T est une bijection et ainsi preserve la totalite de 1’infor¬ 
mation. La Figure 2 illustre cette projection sur un exemple 
concret issu de la finance. On pent remarquer que ce resultat 
replique le theoreme de Sklar [6], resultat fondateur de la theo- 
rie des copules. Neanmoins, nous n’utilisons pas ici le cadre 
generique de cette theorie et nous verrons par la suite ou cette 
analogie s’arrete. Nous exploitons ensuite cette representation 
pour definir une distance do entre les variables aleatoires qui 
prend en compte a la fois la distribution des marginales et leur 
comportement joint. 

Soit (X, F) G V^. Soient Gx.Gy leur fonction de reparti¬ 
tion. Nous definissons la distance suivante, dependante du pa- 
rametre G [0,1] : 

4{x, Y) = 9dliGx{X),GYiY)) + (1 - e)4{Gx,GY), 
avec 

di{Gx{X),GY{Y}) = 3E[|Gx(X) - Gy{Y)\% (2) 

et 



En particulier, nous obtenons do la distance d’Hellinger, /- 
divergence qui quantifie la similarite entre deux distributions 
et qui garantit la monotonicite de 1’information, propriete qui 
assure que la distance entre des histogrammes grossiers est 
moindre que la distance entre des histogrammes plus precis; 
di = ^(1 — ps')/2 est une distance de correlation mesurant la 
dependance statistique entre deux variables aleatoires a I’aide 
de ps, correlation de Spearman entre X et F. Remarquons que 
pour d G [0,1], 0 < < 1 et pour 0 < d < 1, d^ est une 

distance metrique. Pour d = 0 ou d = 1, I’axiome de sepa¬ 
ration n’est pas verifie. Cette distance est egalement invariante 
par transformations monotones, propriete desirable car elle af- 
franchit de I’arbitraire du choix des unites ou de la methode de 
mesure (que ce soit I’appareillage ou la modelisation mathema- 
tique) du signal. 


Pour appliquer la distance proposee sur des donnees echan- 
tillonnees, nous definissons alors une estimation de dg. La dis¬ 
tance di travaillant avec des distributions uniformes continues 
peut etre approximee de maniere discrete par des statistiques de 
rang qui en sus d’etre robustes aboutissent a une analogie avec 
le formalisme des copules : la statistique de rang utilisee cor¬ 
respond a une coordonnee de la copule empirique de Deheuvels 
[1] qui est un estimateur non parametrique et non biaise conver- 
geant uniformement [2] vers la copule sous-jacente au proces¬ 
sus. La distance do peut etre approximee par sa forme discrete 
travaillant sur une estimation des densites marginales obtenues 
par histogrammes, par exemple. Pour calculer di, nous avons 
besoin d’une fonction de rang bijective et puisque nous consi- 
derons 1’application aux series temporelles, il est naturel de pri- 
vilegier I’ordre d’arrivee pour departager les egalites. 

Soient {Xi)f£^ les M realisations de X G V. Soit Sm le 
groupe des permutations de {1,..., M} et a G Sm une per¬ 
mutation quelconque, disons a = /d{i ... m}- Une fonction de 
rang bijective pour {Xi)f£^ peut etre definie comme une fonc¬ 
tion 

rk^:{l,...,M} ^ (4) 

i ^ #{ke{l,...,M}\K} 

avec Va = {Xk < Xi) V {Xk = Xi A a{k) < a{i)). 

Soient {Xi)f£^ et (F^)^^ les M realisations des variables 
aleatoires X, F G V. Une distance empirique entre les realisa¬ 
tions de ces variables aleatoires peut etre definie par 

dj {{XOfii, (YOfii) =■ Odj + (1 - 9)dl, ( 5 ) 

avec 

o M 2 

= AP(M - 1) g ® 

et 

^ F > (7) 

k= — oo ^ ^ 

le parametre h etant un parametre de lissage approprie, et g\ {x) 
-h < (Lf J + 1)^} ^lant un histogramme 

de densite estimant la fonction de densite de probabilite gx a 
partir des (X^)^^, les M realisations de la variable aleatoire 
Xg V. 

3 Application au partitionnement auto- 
matique de series temporelles finan- 
cieres 

Nous illustrons notre approche sur les series temporelles des 
volumes traites sur le marche des couvertures de defaillance [3] 
(CDS). Nous prenons en compte les N = 658 actifs ayant des 
volumes reportes depuis juillet 2010. En sus d’etre des don¬ 
nees accessibles publiquement (foumies par DTCC - http: 




Rank Correlation =0.56 



Figure 2 - L’approche presentee en resume : deux series temporelles sont projetees sur I’espace dependance 0 distribution. 


//www. dtcc . com/) contrairement aux prix des CDS, ces 
series temporelles sont tres bruitees et font montre de moins de 
correlations evidentes que les series de prix [4] (cf. Figure 3 et 
Figure 4 pour une comparaison), ce qui rend ce jeu de donnees 
interessant pour notre methode. A notre connaissance, il s’agit 
de la premiere fois qu’un papier s’interesse au regroupement 
automatique de series temporelles des volumes traites sur un 
marche financier. 



Figure 3 - Les prix de CDS de deux industries entre Janvier 
2006 et Janvier 2015 : les entreprises financieres fran 9 aises (en 
bleu) et les cimentiers (en rouge); observez la correlation im- 
portante a I’interieur de chaque secteur industriel. 

Notre but est de comprendre comment ces series temporelles 
se regroupent lorsque nous considerons uniquement leur com- 
portement Joint (notre approche avec 0 = 1) ou en se concen- 
trant seulement sur la proximite de la distribution de leurs vo¬ 
lumes traites (notre approche avec 6 > = 0 ), et finalement lorsque 
nous prenons en compte la totalite de 1 ’information (notre ap¬ 
proche avec 0 = 0.5). Nous estimons d’abord le nombre de 
groupes dans chaque cas grace a un critere de stabilite [5] et 
nous trouvons Ki = 3, Kq = 5 etFfo .5 = 7 respectivement. 

La Table 1 affiche quelques caracteristiques (esperance et 
quantiles) de la distribution des Ffo .5 = 7 groupes trouves en 
utilisant la totalite de Tinformation. Nous pouvons remarquer 



Figure 4 - Les volumes de CDS traites selon DTCC; En bleu, 
les entreprises financieres frangaises et en rouge les volumes 
traites sur les cimentiers tels que reportes entre Juillet 2010 et 
Janvier 2015. 

que ces groupes correspondent en fait aux Kq = b groupes 
trouves en utilisant uniquement T information de distribution 
dont les esperances et quantiles sont reportes dans la Table 2. 
Cependant, ces indicateurs sur la distributions ne permettent 
pas d’expliquer les differences entre les groupe 3 et 4 qui se 
ressemblent pour ces mesures, idem pour les groupes 5 et 6 . 

Concemant {C? ®, Cf®}, nous pouvons d’ores et deja 

constater que est compose des CDS ayant un important 
volume traite, notamment les CDS sur la dette souveraine de 
pays tels que le Bresil, la Chine, T Allemagne, la France, ITta- 
lie, la Russie et TEspagne. est constitue des entreprises 
financieres ainsi que de quelques foumisseurs d’energie qui re- 
presentent les entiles les plus activement traitees sur le mar¬ 
che des couvertures de defaillance, en dehors des defies sou- 
veraines. cf® se compose des entreprises asiatiques, notam¬ 
ment Japonaises, dont les CDS sont relativement peu traites, 
les rendements etant tres faibles. Pour comprendre les diffe¬ 
rences entre les groupes et nous etu- 

dions les resultats du regroupement automatique en utilisant 
seulement les comportements Joints, c’est-a-dire les ATi = 3 
groupes {67^, C 2 , C 3 }. est essentiellement compose d’en- 
tites ayant une liquidite croissante, c’est-a-dire une tendance 







































Low volume clusters 


Table 1 - Les i^o.s = 7 groupes obtenus avec 0 = 0.5 




rcp- 

r^o.5 

r^o.5 

L 4 

/-^U.5 

r^o.5 


Mean 


84 

32 

29 

17 

17 

8 

Quantile 10% 


1 46 

18 

17 

8 

5 

4 

Quantile 90% 


\141 

50 

44 

29 

36 

15 

Size 


\ 89 

169 

79 

161 

90 

57 


Table 2 - Les Kq = 5 groupes obtenus avec 0 = 1 




per 

n 

coo 



Mean 


92 

40 

22 

10 

Quantile 10% 


60 

29 

16 

4 

Quantile 90% 


1 139 

51 

29 

15 


haussiere des volumes trades, et correspond au groupe 
Cl contient les CDS des entreprises europeennes considerees 
comme etant sures par les agences de notations, ce marche est 
connu pour etre tres fortement correle en comparaison de ses 
equivalents americain et asiatique. semble rassembler le 
reste des actifs ne partageant pas de points communs evidents. 

Nous pensons que ces volumes trades constituent un jeu de 
donnees interessant pour illustrer T usage de notre methode car 
cela montre le gain qu’on obtient a exploiter Tinformation to- 
tale disponible dans ces marches aleatoires. En sus, nous trou- 
vons que le regroupement automatique optimal (d’un point de 
vue de la stabilite des groupes par rapport a des petites pertur¬ 
bations) est constitue des groupes qui sont eux-memes resul- 
tats optimaux des regroupements automatiques lorsque Talgo- 
rithme travaille seulement sur la partie « dependance » de Tin- 
formation ou seulement sur la partie « distribution » : les CDS 
sont regroupes en 5 groupes pouvant etre expliques par le vo¬ 
lume moyen traite et qui resume approximativement T informa¬ 
tion de distribution, cependant deux groupes supplementaires 
emergent a cause de Tinformation sur les comportements joints 
qui raffine cede partition en 5 groupes : un groupe emerge a 
cause des fortes correlations presentes dans le marche europeen 
des actifs surs, et Tautre rassemble les entiles dont le volume 
des transactions est en augmentation (Figure 5). 

4 Discussion 

Dans cette communication, nous avons presente une nou- 
velle representation, mathematiquement fondee, des series tem- 
porelles suivant une marche aleatoire. Cette representation pent 
etre utilisee pour le partitionnement automatique des series tem- 
porelles comme illustre en Section 3 par Texemple des volumes 
trades, mais est egalement adaptee a Tapprentissage supervise. 
Dans cette communication, nous avons montre son utilite sur 
des donnees reelles, neanmoins nous avons egalement valide 
Tapproche sur des cas tests engendres par des modeles de cor¬ 
relations hierarchiques se subdivisant en groupes de distribu¬ 
tion. Nous nous concentrons maintenant a prouver la consis- 
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Figlfre 5 - Des dynamiques inverses pour 

tance statistique d’une telle approche. Les resultats experimen- 
taux, des donnees ainsi que des implementations, sont dispo- 
nibles sur http : / /www. datagrapple . com se consacrant 
au partitionnement automatique de series temporelles. 
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